3. Métodos de representación automática del conocimiento en la elaboración de resúmenes

Seguimos la clasifiacción de Maria Pinto, y agrupamos las líneas de investigación metodológicas en PLN , tres grandes grupos:

-Métodos de extracción basados en la estructura superficial

-Metodos de sumarización, a medio camino entre resumen y extracto

-Métodos gráficos y relacionales

Métodos de extracción basados en la estructura profunda

Caracterizados porque abordan el texto como cadenas de caracteres y apenas realizan un análisis lingüistico. El documento final es un subconjunto de oraciones del texto.

Paice enumera los siguientes métodos estadísticos de extracción automática:

Frecuencia de palabras

La selección de palabras clave realizada en atención a la frecuencia de repetición en la frase.

ARRIBA

Palabras Clave del título

Selección sobre el título y encabezamientos, tras eliminar las palabras vacias.

Localización de la información oposición en el texto

Lead method:

Se considera que en cualquier texto lo importante aparece al principio (o al final), se seleccionan las n primeras oraciones o párrafos.

Optimum position policy( OPP) :

Las posiciones con mayor carga significativa aparecen en posiciones dependientes del género,se precisa el aprendizaje automático de las posiciones más prometedoras a nivel de párrafo y oración ( Lin,Hovy,1997 )

Sintáctico

La extracción relacionada con la estructura sintáctica.

Palabras temáticas importantes

La identificación de términos claves de contenido más frecuente o con frecuencia alta en el documento que son escasas en el conjunto de documentos.

Términos o frases significativas (cue phrases)

La selección se apoya en una lista de términos indicativas que tienen un peso en la selección de las frases se diferencian tres clases según la relevancia:

Bonus phrases indicadores de términos con peso : Concluyendo.....,en resumen.....,principalmente......
Stigma phrases indicadores de términos de escaso peso: Dificilmente....., imposible.....no..., Null phrases indicadoras de frases irrelevantes para la selección.:Por contra..

Relacionales

La extracción de información relevante se consigue utilizando representaciones semánticas del texto.

Edmundson (4) propone un método lógico matemático para la asignación de valores numéricos a las frases . Plantea cuatro modos de selección de frases: palabra clave (key), entrada (cue), título y emplazamiento. Al evaluar los experimentos se constató que la selección por entrada, título y emplazamiento tuvieron ventaja frente a los de palabra clave, por tanto se eliminó este método de selección para resumenes automáticos.

Otra combinatoria de métodos interesante es la propuesta por ANES (Sistema de Extracción Automática de Noticias) en base a métodos estadístico/heurístico sobre los términos, determinando las frases más representativas(5). El análisis estadístico del corpus documental se realiza a partir de las frecuencias asignándoles un peso a cada término y un identificador.

Utiliza una ecuación de frecuencias para seleccionar las frases que contienen las ideas principales mediante la suma de los pesos de los términos que contienen cada frase y el sistema se decide por las que obtienen los pesos mayores .En cuanto a los resultados del experimento fueron valorados por analistas con la calificación de medianamente aceptables en cuanto a coherencia y cohesión.

Otro método llamado de máxima frecuencia ó método de Knowledge Discovery (KD), en que se enumeran las siguientes fases:

Preproceso de documentos trata de eliminación de términos y datos el texto original queda reducido a una secuencia de palabras, se analiza la máximas secuencias de palabras más frecuentes para terminar con una clasificación y ordenación de términos .Este método permite sobre un grupo de documentos encontrar una frecuencia de palabras que es frecuente en una colección y a la vez de otra secuencia frecuente mayor.(6)

KD es un método que destaca en las técnicas de análisis inteligentes en bases de datos automatizadas, cuya meta es derivar conocimiento de esas bases de datos reales , aplicando patrones para la extracción de información.

ARRIBA

-Métodos de sumarización

Dado el extraordinario crecimiento exponencial de la información on-line, los usuarios son víctimas de una sobrecarga informativa. Los sumarios entendidos como una forma abreviada del contenido del documento pueden aliviar esta situación reduciendo de manera considerable la información a leer por el usuario o investigador.

Los sistemas basados en la estructura del discurso o retórica incorporan cierto grado de creatividad y operan sobre las relaciones discursivas de cohesión y coherencia. Distinguimos dos grandes agrupaciones de métodos :

Métodos basados en la estructura discursiva o retórica

Métodos basados en la estructura profunda

Métodos basados en la estructura discursiva o retórica

Los sistemas basados en la cohesión (Barzilay,1997) relacionan los items de un texto, la conectividad no estructural, repetición,referencia, cohesión léxica a través de selección de las palabras.

Los sistemas basados en la coherencia (D.Marcu,1997-1999) consiguen relacionar los segmentos del texto , los elementos del discurso están conectados a través de la estructura semántica.Es una aproximación basada en la coherencia interna del texto, consigue una buena calidad del resumen.

Marcu, representa la estructura retórica del texto y utiliza algoritmos de análisis retórico basado en un corpus compuesto por marcadores de discurso y fragmentos textuales.

Plantillas

Los sistemas basados en plantillas (Gaizauslas-Wilks 1998) han sido utilizado en extracción de noticias(prensa económica ), Reuter(Andersen1992-1994), artículos de información financiera (Chong-Goh 1997), extracción automática de referencias bibliográficas de patentes a texto completo ( Lawson1996), en este procesamiento del lenguaje natural se cumplimentan plantillas estructuradas en patrones .

Plantillas Web

Altavista es un ejemplo de sistema de plantillas con frases relacionadas con el tema de búsqueda para que el usuario escoja la opción más acertada.

Métodos basados en la estructura profunda

Concebido este procedimiento como un sistema experto basado en una red de conocimientos básicos o redes semánticas representativas del contenido y aplicados al texto, es un modelo semántico conceptual de generación de sumarios basado en las teorías cognitivas.

FRUMP (7) es un programa para la generación de sumarios de artículos cortos. Está cifrado sobre la base de hechos o conocimiento base que se usa para predecir acontecimientos generales .El analizador textual está dirigido hacia las expectativas y la interpretación del texto de entrada sobre la base de acontecimientos pronosticados , realiza una nueva interpretación de la nueva situación y nuevas predicciones.La base de conocimientoen la que actua se estructura en guiones que contienen sólo los hechos destacables que pueden ocurrir en una situación.

Otro sistema basado en inteligencia artificial para el análisis y la comprensión de textos breves en dominios restringuidos, generando representaciones semánticas en forma bien de extractos o de sumarios es SCISOR (System for Conceptual Information Summarization Organization and Retrieval) de Rau (8).

Diseñado para procesar noticias cortas on-line sobre un tema del mundo empresarial (transaccioenes de empresas y reponsabilidad corporativa)extraidas de periódicos o revistas como el Wall Street Journal.Permite una recuperación conceptual de la información, de respuestas a cuestiones planteadas en lenguaje natural.Utiliza una metodología KADS sistema experto de ingeniería del conocimiento, emplea arquitectura BLACKBOARD o de pizarra para la representación cognitiva técnica de la información en la resolución de problemas (Niggemeyer)

-Métodos gráficos y relacionales

Salton diseñó un modelo de recuperación , conocido como espacio vectorial en el que las unidades informativas se representan por grupos o vectores de términos conocidos como clustering de documentos y pasajes.El sistema SMART permite la descomposición y estructuración de los documnentos, segmentos de longuitud : secciones, grupos de frases adyacentes o frases sueltas.

Se establecen relaciones entre textos y pasajes de textos para generar mapas relacionales que muestren las similitudes de los textos y pasajes que han superado un determinado valor. Este modelo conlleva tres fases:Identificación del tema textual, travesía selectiva del texto y extracción de sus partes relevantes ,utilizando las ideas sobre generació, de enlaces hipertextuales, se pueden crear enlaces intradocumentales entre los párrafos o frases de un texto.

PAGINA PRINCIPAL